用计算社会科学做“扎根理论”！只需三步法，有实例

Original 高行云社会学理论大缸 2022-09-24

文/高行云

首发时间：2022年1月6日

即使你不知道什么叫“扎根理论”，顾名思义，也能猜到一二：以向社会行动者学习的心态，从观察/数据出发，把他/她们活动记录下来，逐步编码，层层归纳，生成理论。相对来说，不是用一个测量指标当尺子，硬靠到东北和华南，一心只想着怎么检验自己从文献中找出的一两个命题。

生成理论？还是理论压迫？扎根理论选择前者。

但是，如果你稍微了解一些扎根理论，就会知道，该派最大贡献是让质性社会研究者学会了“编码”，但也招到了很大的批评，比如：

1. 主观化

2. 难以验证和复制

3. 无法拓展，和其它数据和研究衔接

所以，扎根理论编码再怎么变，你会看到20世纪60年代到现在，好像都没怎么变化。虽然最近哈佛大学社会学教授Mary Water在反思这个问题，见我之前推送。

哈佛教授新文：质性方法如何不再是传统的手工活？到底要访谈多少次才够？

- 1 – 当计算技术遇上扎根理论

技术在不断迭代，究竟扎根理论能受益和更新吗？

美国西北大学社会学助理教授Laura K. Nelsond 2020年在方法论的顶尖刊物Sociological Methods & Research发表了一篇论文，《计算的扎根理论：方法论框架》，希望将计算社会科学的进展延伸到扎根理论中去。

下面谈到的她的实例，在2021年刚发表在《美国社会学学报》，见下：

Nelson, Laura K. 2021. “Cycles of Conflict, a Century of Continuity: The Impact of Persistent Place-Based Political Logics on Women’s Movement Form.” American Journal of Sociology 127 (1): 1-59.

Nelson先指出，咱们社会科学做类似于扎根理念的内容分析由来已久，希望以三个标准作为追求：

1. 信度：每次做这方面研究，结果都是一样的；

2. 主体间有效：不管哪个社会学家来做都一样

3. 可复制性：我做好了、你再做我的数据，结果一样。

有哪些方法和技术可选呢？大致有三种：

1. 词汇方法（lexical-based）：从你想到的词频到对词汇的态度评分等等。我之前介绍过用这种方法研究法兰克福学派代表人物作品之间关联问题的研究。

文化社会学，怎么做量化研究？以法兰克福学派文本分析为例

2. 文本分类（text classification）：这方面涉及到机器学习了，也包括监督或无监督等方面。

3. 自然语言处理（natural language processing）：同样涉及机器学习，把语言结构、脉络、词汇评分等结合起来。

你可以用的软件包括以下

- 2 – 如何操作？三步法

第1步：探索研究，化简词汇

Step 1: Pattern Detection Using Human-centeredComputational Exploratory Analysis

这一步的核心是将凌乱和复杂的文本减少到可解释的词组。在这一步中，可以使用计算社会科学计算，也可以用人力来添加新的概念。

第2步：深度阅读，整体解释

Step 2: Hypothesis Refinement Using Human-centeredInterpretation

用计算社会科学的方式，你的扎根对象不再是一个个访谈或观察，可以是庞大的历史文献和访谈库。毕竟当材料太大，你的眼睛是看不过来的，这时候可以用计算方式嘛，利用计算机的潜力来提取人类可能无法立即看到的模式，无需费力地手工编码。

如果说“整体”有肉眼看不到了大数据的整体，也不全对。还有对语境的阅读，是脉络的整体。所以同时，你也要把第1步中得到的化简词汇，带回到一些具体文本来阅读和理解。

第3步：确证模式，生成理论

在这一步，你可以用监督式机器学习的方式，将此前自己的深度阅读的方式带入到其它文本的编码或主题建模，识别和确认模式。

- 3 – 实例：1848-1975年美国女权主义运动

第1步：探索研究，化简词汇

作者举了自己研究的例子，用无监督机器学习的主题建模，挖掘1848 年至 1975 年在纽约市和芝加哥这两个城市发生的美国妇女运动。

我们知道，女权运动往往分波次，比如将1920年前称为第一波、1964-1980年代初称为第二波。但是这只是时间划分，不同地方有什么特点呢？

她分析了纽约和芝加哥的两波次的妇女运动的文献，coding出高频的主题词汇，见下

结果作者发现，纽约的女权运动更喜欢谈一些比较宽泛、大的词汇，比如history, liberation, feminist，相较来看，芝加哥则不然，会有更高频的主题词汇是很具体的，比如abortion, Nixon, hospital, school, and members。因此：纽约更抽象、芝加哥更实在，反映了两个地方的社会运动的不同基调。

第2步：深度阅读，整体解释

前面不是谈到了纽约和芝加哥的差异了吗？这时候研究者要带着那些主题词汇回到历史文本，整体阅读上下文语境，深度理解当地的社会与文化脉络，细化研究假设。

作者发现两波芝加哥的女性运动都有一种政治态度：她们努力确定社区中女性的具体需求，例如儿童保育或法律咨询，然后再上升到国家层面进行对接或游说。纽约则不一样。她们也关注个体女性的经历，但是却为了概括和抽象，提出一些影响女性生活的社会结构主张。

简单地讲：芝加哥是社区/公共—制度/组织角度思考女性具体需求和措施，但纽约是个体/经历—抽象/结构的角度思考。

比如，作者专门分析了第一波次里芝加哥著名的Hull House组织。这个组织主持人就是社会学奠基人之一、芝加哥学派女将亚当斯。作者建议当你尝试阅读时，要把理论假设和材料中迭代阅读，比如你再回到当时的文献，可以看到Hull House的一些材料里，有98%是和公共机构有关的，甚至全部文档里会有20%以上与之有关，说明她们关注议题非常具体和实在。

下面是能够作者回到text时，再阅读到Hull House的一些具体表述

第3步：确证模式，生成理论

上面提到了两组发现：

芝加哥：组织、具体

纽约：个人、抽象

我们要怎么再确认这种模式在所有的文献中都重现可复制呢？

作者这时候用了wordnet 词汇层次结构及词汇关系的计算社会科学分析方式。这个库能够识别同义词、上下位词汇、部分-整体关系、反义词等。

比如，这种方式能够识别出下面的词汇关系：

椅子→家具→陈设→人工制品→物理实体→实体

（wordnet的示例）

有了这样办法，作者开始挖掘纽约和芝加哥的女权运动的词汇，确认自己的上面两组发现。确实，她发现，纽约女权运动文献提到过2775次与个人有关（相当于上位词），但只提到 1799 次和组织有关。

当然，在她发在AJS的文章中，你能看到更仔细的分析，比如组织之间的关系，见下图

最后，作者能够回到和女性主义运动的文献对话，提出这样的理论主张：

1.从第一波到第二波的女权主义运动，有断裂变化还是连续性？

2. 不同地方的运动的政治模式有何不同？

如上所示，芝加哥一以贯之，两波妇女运动组织都共享一个政治逻辑，认为社会变革要通过国家和制度才行，要围绕特定问题，实现短期目标，促进生活的具体改变。但是，纽约遵循另一种政治逻辑，认为社会改变要在个人身份上得到落实，强调通过个体经历建立团结意识，强化对社会结构的抽象理解。

同样的，这里也能够看到，第一波女性主义运动对制度与政治的强调，并没有退却而消失，仍然会在第二波里反映出来。

文献来源：

Nelson, Laura K. 2021. “Cycles of Conflict, a Century of Continuity: The Impact of Persistent Place-Based Political Logics on Women’s Movement Form.” American Journal of Sociology 127 (1): 1-59.
Nelson, Laura K. 2020. "Computational Grounded Theory: A Methodological Framework." Sociological Methods and Research 49 (1): 3-42.

* 这是Sociological理论大缸的第619期推送 *

为什么前沿理论会成为永恒经典？93648篇社会学论文的大数据研究

近15年社会学研究方法趋势：基于三大英文顶刊的关键词分析

页底推广

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

用计算社会科学做“扎根理论”！只需三步法，有实例

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

生成图片，分享到微信朋友圈

用计算社会科学做“扎根理论”！只需三步法，有实例

您可能也对以下帖子感兴趣